正則化について

なぜ正則化を行うのか： \[ 最小二乗推定量はいつでも求まるわけではなく、X^TXが正則でない（逆行列を持たない）場合は求まらない。 X^TXが可逆でなくても安定した推定を行うため \] 代表的な正則化法はL1正則化とL2正則化である。リッジ回帰はL2正則化を用いた回帰でLasso回帰がL1正則化を用いた回帰である。
リッジ回帰推定量は \[ \hat{\beta}_R = \arg \min(\| Y - X\beta \|^2+ \lambda \| \beta \|_2^2) \] \[\lambdaは正則化パラメーターで交差検証法やMallows'Cp基準によって選択される。\]
L2正則化の特徴：
・L1正則化と比べてベクトルの各成分を完全な0にはしない。
・均等に重みを小さくするため、外れ値やノイズに対するロバスト性が高まる。
Lasso回帰推定量は \[ \hat{\beta}_L = \arg\min(\| Y-X\beta \|^2 + \lambda \| \beta\|_1) \] 正則化を加えることで推定量の分散を抑えることができる。また正則化が強すぎると推定量が原点に向けて縮小されすぎる。（過小適合）
L1正則化の欠点：2つの相関の強い変数があるとその2つの変数間で変数選択が安定しない。

L1正則化の特徴：
・L2正則化と比べてベクトルの各成分が0を取りやすいように正則化する。→スパースな軽いモデルになる。
・スパースなので解釈性が高い。
・高次元小標本データの場合にスパース性を利用して、ゼロと推定された説明変数をモデルから取り除くという説明変数の選択ができる。
・下の図の解釈：L1正則化はスパース性のため、正則化項の制約が母数空間の軸上で尖った領域となる。→軸上(いくつかの成分がゼロとなる)で極地を取りやすい。

Elastic-Netとは
L1正則化とL2正則化を混ぜた手法。正則化項として以下を用いる。 \[ \lambda(\alpha\| \beta \|_1+\frac{(1-\alpha)}{2}\| \beta \|_2^2) \] 参考：
・統計検定準1級ワークブック第16章
・正則行列の条件
・https://qiita.com/Mark-N/items/0323d420af46d3ed9183
・argminとargmax
・https://zenn.dev/yuto_mo/articles/d431682e824dd2

TOP Statistics Veterinary Medicine IT Biotechnology Bioinformatics Chemoinformatics MachineLearning Mathematics (except statistics) Hobby About this blog

5, May 2024

Regularization

What is the purpose of regularization?：
The least-squares estimator is not always obtainable, and cannot be obtained if X^TX is not regular (does not have an invertible matrix). To obtain a stable estimator even if X^TX is not invertible Typical regularization methods are L1 regularization and L2 regularization. The Ridge Regression is the regression that usesL2 normand Lasso regression is the regression that usesL1 norm
The Ridge Regression Estimate Value is \[ \hat{\beta}_R = \arg \min(\| Y - X\beta \|^2+ \lambda \| \beta \|_2^2) \] λ is the regularization parameter which selected by cross-validation and Mallow's Cp

Lasso regression estimator is \[ \hat{\beta}_L = \arg\min(\| Y-X\beta \|^2 + \lambda \| \beta\|_1) \] Adding regularization can reduce the variance of the estimator. If regularization is too strong, the estimator will shrink too much toward the origin.(under-fitting)
・Disadvantage of L1 regularization: when there are two strongly correlated variables, variable selection is not stable between those two variables.

Elastic-Net A mixed method of L1 regularization and L2 regularization. The following regularization terms are used \[ \lambda(\alpha\| \beta \|_1+\frac{(1-\alpha)}{2}\| \beta \|_2^2) \] Reffering Site:
・Workbook for Statistical Test Level 1, Chapter 16
・Conditions for regular matrices
・https://qiita.com/Mark-N/items/0323d420af46d3ed9183
・argmin and argmax

Vet IT

正則化について

Vet IT

Regularization